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(g) Procede d' identification d'objets dans une image. 

(57) L'invention concerne un procede d'identifica- 
tion d'objets dans une image dans lequel avec 
un premier reseau de neurones (RZ1) on realise 
une localisation grossiere d'objets dans I'image 
ce qui fournit des hypotheses de localisation. 
Ensuite, un deuxieme reseau de neurones (RZ2) 
realise une localisation precise d'un objet dans 
chaque hypothese. Enfin, un troisieme reseau 
de neurones (RZ3) effectue une identification 
de chaque objet dont on connait avec precision 
la position. 
Applications : 

— Localisation de visages 

— Telesurveillance 

— Mesure d'audience televisuelle 
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L'invention concerne un procede d'identif ication d'objets dans une image et plus particulierement un pro- 
cede de reconnaissance et de localisation de formes d'objets, tels que des visages, dans une image pouvant 
representor autre chose que ces objets. 

Le domaine general est celui de I'analyse d'images, et plus particulierement celui de la reconnaissance 
de formes. A titre d'exemple, dans ce qui va suivre on va detecter et identifier dans une image des formes 
correspondant a des visages de personnes et d'identif ier les personnes observees en les comparant a un en- 
semble de personnes connues a I'avance. La localisation etla reconnaissance doivent etre invariante par rap- 
port a certaines transformations (translation, rotation, echelle, ...). 

II s'agit d'un probleme specif ique qui s'inscrit dans la classe plus generale des problemes de reconnais- 
sance de formes dans une image. Ce type de probleme est en general resolu par une des methodes suivantes : 

1. Extraction d'attributs morphologiques (coins, courbures, ...) suivis d'une reconnaissance par mise en 
correspondance avec des modeles de reference. 

2. Calcul de courbes granulometriques par ouverture de laquelle on extrait des parametres fournissant des 
informations symboliques sur les formes traitees, suivi d'un etage d'analyse de donnees. 

3. Approximation polygonale de contours qui sont ensuite mis en correspondance avec un dictionnaire de 
reference. 

4. Codage des contours qui donnent une courbe caracteristique telle que p(G) ou 0(s). 

5. Application directe d'un reseau de neurones sur I'image grossierement pre- traitee. 

Dans notre cas, contrairement a ces systemes pour lesquels I'essentiel de 1'information permettant la re- 
connaissance de I'objet se trouve contenue dans (a forme de I'objet, information se trouve contenue dans la 
fonction d'intensite. L'analyse doit done etre effectuee sur I'ensemble de la forme et non pas sur le seul contour. 

II s'agit done dans une image quelconque, d'identif ier des zones de I'image correspondant a I'observation 
d'un visage et d'identif ier la personne observee a partir d'une base d'images prealablement enregistree. 

L'objet de l'invention est d'obtenir un procede simple et fournissant une reponse rapide. 

L'invention concerne done un procede d'identif ication d'objets dans une image, caracterise en ce qu'il 
comprend les eta pes suivantes: 

a) Acquisition d'imagettes representant chacune une representation possible des objets a detecter, les dif T 
ferentes imagettes etant toutes de meme dimension et constitution d'une base d'apprentissage. 

b) Etablissement d'un premier reseau de neurones. 

c) Apprentissage du premier reseau de neurones de telle sorte que sa reponse fournisse : 

- une valeur maximale (+ 1,3) lorsqu'une imagette est centree sur un objet de I'image ; 

- une valeur minimale (- 1 ,3) pour une absence de detection d'objet dans une image; 

- une valeur intermediate entre la valeur maximale et la valeur minimale lorsqu'une imagette est de- 
centree par rapport a un objet de I'image ; 

d) Balayage de I'image par le premier reseau de neurones, par portions d'images, pour detecter un ou plu- 
sieurs objets dans I'image et localisation des zones pour lesquelles les valeurs resultats du reseau de neu- 
rones sont superieures a une valeur de seuil (0,8 par exemple) ce qui donne des zones hypotheses de 
presence d'objets a un taux determine d'agrandissement/reduction. 

- reduction ou agrandissement de I'image a un premier taux determine et repetition de la phase prece- 
dente de balayage, et ainsi de suite a differents taux de reduction ou d'agrandissement. 

Le procede de l'invention est complete par le fait que le procede comporte les etapes supplementaires 
suivantes : 

- etablissement d'un deuxieme reseau de neurones ; 

- apprentissage de ce deuxieme reseau de neurones de telle sorte que sa reponse se fasse a une valeur 
maximale (+ 1 ,3 par exemple)a pour une imagette centree sur un objet ou a une valeur minimale (- 1 ?3 
par exemple) pour une imagette decentree ; 

- balayage des zones d'hypotheses par le deuxieme reseau de neurones pour detecter la reponse maxi- 
male pour chaque zone d'hypothese. 

Les imagettes etant des imagettes d'objets et defends, I'apprentissage du deuxieme reseau de neurones 
se fait uniquement avec des imagettes d'objets, ('identification du fond de I'image n'etant plus utile. 
Les differents objets et caracteristiques de l'invention apparaitront plus clairement dans la description qui 
va suivre et dans les figures annexees qui represented: 

- la figure 1, un schema general du systeme selon l'invention ; 

- la figure 2, un exemple de reseau de neurones selon l'invention. 
De facon generale, I'objet de l'invention consiste : 

. A effectuer la localisation des visages en appliquant un f litre, qui est en fait un reseau de neurones, en 
chaque point de I'image. Les points-cles sont: 

- L'image est traitee a differentes echelles pour resoudre le probleme d'invariance par echelle. 
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- Le reseau de neurones est construit de sorte que son application a une image entire puisse etre 
realis6e comme un ensemble de convolutions. 

- Uapprentissage a et6 r6alis6 en utilisant plusieurs techniques de presentation de la base d appren- 

tissage 

Aeffectuer la reconnaissance des visages en utilisant un filtre de neurones dont la couche d'entree 
comprend plusieurs masques correspondent soil au visage global, soil a des zones signiflantes du vi- 
sage. 

La figure 1 represente un schema general du procede de I'invention. 

Une image IM est a explorer pour detecter dans cette image un ou plusieurs objets tels que des visages. 
Un appareil tel qu'une camera CAenregistre cette image qui ensuite est soumise a un pre-traitement PR pour 

realiser un lissage. ., 

L'image est ensuite exploree par un reseau de neurones RZ1 qui a subit un apprentissage a I aide d une 
base d'imagettes de reference representant des objets a segmenter par rapport au fond. Cette exploration per- 
met d'identif ier des zones fournissant une reponse superieure a seuil determine, c'est-a-dire les zones sus- 
15 ceptibles de contenir un objet a identifier. 

Cette exploration permet la formation d hypotheses et constitue done une localisation grossiere. On pro- 
cede ensuite a une localisation fine en explorant, avec un deuxieme reseau de neurones RZ2, les hypotheses 
identif iees precedemment et on determine la reponse maximale de cheque zone. On obtient ainsi la position 
exacte de I'objet detecte. 

Ensuite. un troisieme reseau de neurones RZ3 identif ie la representation sensiblement exacte de I objet 
en lui superposant ce troisieme reseau de neurones. 

La figure 2 represente un reseau de neurones tel qu'utilise dans le cadre de linvention. II s'agit d'un reseau 
a poids partages qui comprime I'information en utilisant trois couches cachees. La couche de sortie comprend 
un seul neurone dont la valeur est + 1 ,3 si un visage est present au point considere de l'image et - 1,3 smon. 

Le fonctionnement du reseau de neurones est le suivant. II est decompose en couches que nous notons 
C(l, m). 

C(0, 1 ) est la couche d'entree de taille 20 x 20. 

C(1, k) k = 1 ... 4 correspond & la premiere couche cachee qui est decompos6e en 4 imagettes de taille 16 x 
1 6 

C(2, k) k = 1 ... 4 correspond a la deuxieme couche cachee qui est d6compos6e en 4 imagettes de taille 8 x8. 
C(3i k) k = 1 ... 4 correspond a la troisieme couche cachee qui est formee de 4 neurones. 
C(4 1) est la couche de sortie qui est formee d'un seul neurone. 

Ces differentes couches sont connectees les unes avec les autres c'est-a-dire qu'en cours de fonctionne- 
ment les valeurs d'un neurone sont etablies en fonction des valeurs des neurones avec lesquelles ce neurone 
est connecte. Les valeurs des neurones de la couche d'entree sont bien sOr affectees en utilisant les pixels 
de l'image a analyser. Notons Nco ^ti.j) les valeurs du neurone (i,j) de la couche C(l,m). 

N c « w (u)=f(w; lhl + "iw;;;; yt21 N c,oi, (i + 2-x.i+2-yH 
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N CM ' (QO) = f (W J, 4 -"* fw I, 4 ; 1 ' N c,s " ( 0,0)) 

l= 1 



k= 1...4 

Les coefficients W et W £™ sont les poids du reseau. f est une fonction non-lineaire typiquement une 
sigmoide. Pour la structure du reseau que nous utilisons il y en a 1157 differents par exemple. 

La structure de reseau que nous venons de decrire a ete particulierement etudiee et tout specialement 
10 les points suivants : 

. Taille de la couche d'entree : elle a ete adaptee de sorte que la couche d'entree ne soil pas trap grande 
pour que les temps de calcul restent raisonnables et ne soit pas trop petite pour que la presence d'un 
visage dans une image de cette taille puisse etre percue. Elle a 6te choisie carre pour que le systeme 
ait la possibility d'etre invariant par rotation. 
. Utilisation de poids partages : les couches ne sont pas totalement connectees mais simplement connec- 
teesen uhlisantdes masques de taille pxq qui sont partages. Ceci a I'avantage de conserverun nombre 
de degres de liberie suff isamment petit et que Implication du reseau de neurones a une image entiere 
sera equivalent a un ensemble de convolutions. 
Ce reseau de neurones est soumis a un apprentissage. L'apprentissage correspond a la determination 
des poids du reseau. Elle est realisee en utilisant I'algorithme classique de retro-propagation du gradient Le 
pnncipe est le suivant : dans un premier temps, les poids sont initialises aleatoirement. Ensuite des exemples 
choisis suivant des methodes que nous detaMlerons ci-dessous dans la base d'apprentissage sont presentes 
au reseau c'est-a-dire que la valeur des differents neurones est determinee en considerant que les neurones 
de la couche d'entree ont les valeurs fournies par I'exemple. Nc«.i>(0,0) est alois determinee. La valeur desiree 
D<=(4.D(0,0) pour cet exemple est connue puisqu'il s'agit d'un exemple issu de la base d'apprentissage. La quan- 
tity E(W) = (Nc<4.i) (0 ,0) - DC(4.i»(o.O))2 est alors consideree comme une erreur a minimiser. II s'agit d'une fonction 
des poids et II est done possible de la minimiser en calculant eE j^ et en remplacant les poids W par W - e 
d E (W) 

5v y • Cette operation correspond a I'algorithme bien connu de descente de gradient. 

L'apprentissage est particulferement crucial. Des tesultats corrects sont obtenus en effectuant une selec- 
tion des exemples dans la base d'apprentissage. 
La base d'apprentissage a ete etabli ainsi : 

. Une base de donnees de 1791 images chacune contenant I'image d'un visage a ete constituee 
. Un f iltre de lissage est appliqu6 h I'image. 

. Les zones de I'image correspondant aux visages ont ete extraites. 

. Un ensemble d'images ne contenant pas de visages ont <§te acquises et 1791 imagettes en ont ete ex- 
traites. Le meme traitement que pour les imagettes correspondant aux visages a §te appliqu6. Nous ap- 
pellerons ulterieurement ces imagettes, imagettes de fond. 
Deux phases comptementaires d'apprentissage ont 6te mises en place: 
16re phase : apprentissage en vue de realiser une localisation grossifere. 

Les imagettes de la base d'apprentissage sont present6es au r6seau de neurones soit parfaitement cen- 
trees soit avec un decalage. Lorsque les imagettes correspondent a un visage parfaitement centre, la reponse 
desiree qui est indiquee au reseau de neurones est 1 .3. Loisqu'elles correspondent a des visages un peu de- 
centrees, la reponse est inferieure a 1.3 et correspond a une exponentielle decroissante en fonction de I'im- 
portance du decentrage. Lorsque I'imagette correspond S un fond, la reponse indiquee est -1.3. Le but vise 
est d'entrainer le reseau a repondre un peu lorsqu'il rencontre un visage un peu decentre et a repondre de 
maniere maximale lorsqu'il rencontre un visage parfaitement centre. Ainsi lore de I'application du reseau de 
neurones a une image entiere, la reponse obtenue sera progressive tout autour du visage. Les zones corres- 
pondant a des visages seront done assez faciles a detecter. L'inconvenient est que I'ensemble des poids ainsi 
obtenu ne peut pas donner precisement la position du centre du visage. 
2eme phase : apprentissage en vue de realiser une localisation fine. 

Les imagettes de la base d'apprentissage sont presentees au reseau de neurones soit parfaitement cen- 
trees et la reponse desiree est 1.3, soit plus ou moins decentrees et la reponse desiree est -1.3 Les imagettes 
de fond ne sont pas presentees. Les poids ainsi obtenus ferment un reseau capable de localiser precisement 
un visage lorsqu'ils observent des visages plus ou moins bien centres. II s'agit done de I'outil necessaire pour 
realiser une localisation precise. 
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Dans les deux cas, la structure du reseau est la meme. 

Au cours de I'apprentissage, des imagettes correspondant a des rotations des imagettes normales sont 
aussi presentees au reseau. Le but recherch6 est de rendre le reseau insensible a rorientation du visage ob- 
serve dans I'image. . 
5 Ensuite, pour analyser une image, le rfcseau est utilise en I'appliquant a une image entire ou plus preci- 

s6ment a I'ensemble des images qu'il est possible de former avec I'image acquises en la sous-6chantillonnant 
avec une dizaine de facteurs d'6chelle entiers. 

L'application demande done les etapes suivantes : 

. Acquisition d'une image qui est lissee et sous-^chantillonnee. II en resulte une dizaine d'images pre- 
10 sentant des resolutions differentes (ou des taux de reduction/agrandissement differents). 

. Application du premier reseau de neurones a chacune des images. Le resultat est un ensemble d'images 
correspondant a la reponse du reseau de neurones. Dans ces images, les zones pour lesquelles la re- 
ponse depasse un certain seuil (0,8 par exemple) sont detectees et extraites. Elles torment un premier 
ensemble d'hypotheses. 

15 . Les zones qui ont ete determines a l'6tape precedente sont presentees au deuxieme reseau de neu- 

rones. Tous les points pour lesquels la r6ponse obtenue depasse un certain seuil sont considers comme 
des hypotheses de visage et la zone correspondante dans I'image initiale est determinee en tenant 
compte du facteur d ' echantillonnage. 
. L'ensemble des hypotheses formees est considere et un sous-ensemble en est extrait de sorte que les 
20 differentes zones qui leur correspondent ne s'intersectent pas. 

Pour la reconnaissance de visage, on utilise aussi un reseau a poids partages qui comprime I'information 
en utilisant plusieurs couches cachees. La couche de sortie comprend p neurones, p est le nombre de per- 
sonnes distinctes presentes dans la base de donnees. La couche d'entree est formee de plusieurs imagettes 
qui correspondent soit au visage dans son entier soit a des parties de visage. 
25 La phase d'apprentissage est realisee en utilisant la meme base de donnees que pour la localisation. Cette 

base comprend 28 personnes differentes par exemple. 

Le pnMraitement des images inclut I'utilisation d'un f iltre de lissage et une 6tape de normalisation qui rend 
I'image observ6e ind6pendante de la position et de I'etendue des sources lumineuses. 

Le r6seau de neurones est appliqu6 sur les zones de I'image pour lesquelles un visage a 6te d6tecte. Le 
30 neurone de sortie pour lequel la rSponse est maximale est d6clar6 correspondre a la personne reconnue. 

L'invention prevoit ensuite lorsqu'un visage a 6t6 localise, de lui appliquer un troisieme reseau de neurones 
ayant subi un apprentissage avec des visages typ6s en vue d'identif ier ce visage. 

La description qui precede a ete faite dans le cadre de la reconnaissance de visages. Cependant, le sys- 
teme applicable a la reconnaissance de tout objet. 
35 De meme, il n'a pas ete precise si I'image a analyser est constituee de pixels (elements images) ou s'il 

s'agit d'une image analogique. Le systeme est applicable a tout type d'images. 



Revendications 

40 

1. Precede d'identif ication d'objets dans une image, caracterise en ce qu'il comprend les etapes suivantes : 

a) Acquisition d'imagettes reprSsentant chacune une representation possible des objets a detecter, les 
differentes imagettes etant toutes de meme dimension et constitution d'une base d'apprentissage. 

b) Etablissement d'un premier reseau de neurones. 

45 c) Apprentissage du premier reseau de neurones de telle sorte que sa reponse fournisse : 

- une valeur maximale (+ 1,3) lorsqu'une imagette est centree sur un objet de I'image ; 

- une valeur minimale (- 1 .3) pour une absence de detection d'objet dans une image; 

- une valeur intermediate entre la valeur maximale et la valeur minimale lorsqu'une imagette est 
decentree par rapport a un objet de ('image ; 

so d) Balayage de I'image par le premier r6seau de neurones, par portions d'images, pour detecter un ou 

plusieurs objets dans I'image et localisation des zones pour lesquelles les valeurs resultats du reseau 
de neurones sont superieures a une valeur de seuil (0,8 par exemple) ce qui donne des zones hypothe- 
ses de presence d'objets a des taux determines d'agrandissement/reduction. 

- reduction ou agrandissement de I'image a un premier taux determine et repetition de la phase 

55 precedente de balayage, et ainsi de suite a differents taux de reduction ou d'agrandissemenL 

2. Precede selon la revendication 1 , caracterise en ce qu'il comporte les 6tapes supplementaires suivantes : 

- etablissement d'un deuxieme reseau de neurones; 
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- apprentissage de ce deuxfeme r6seau de neurones de telle sorte que sa r^ponse se fasse a une 
valeur sup6rieure a une valeur maximale (+ 1 ,3 par exemple) pour une imagette centime sur un objet, 
ou une valeur minimale (- 1 ,3 par exemple) pour une imagette d6centr6e ; 

- balayage des zones d'hypoth6ses par le deuxfeme r§seau de neurones pour d6tecter au moins une 
reponse maximale pour chaque zone d'hypoth6se. 

. Proc6d6 selon la revendication 1 , caract6ris6 en ce que la localisation des zones pour lesquelles les va- 
leurs de resultats du rSseau de neurones sont superieures £ une valeur de seuil se fait pour des zones 
de taille minimale. 

. Proc6d6 selon la revendication 2, caracteris6 en ce que le balayage de chaque zone d'hypothSse se fait 
& un taux d'agrandissement/reduction correspondant a la localisation des zones d'hypoth&ses ayant four- 
ni le r6sultat maximum. 

15 5. Proc6d6 selon la revendication 1 , caract6ris6 en ce que les images ainsi que les imagettes sont compo- 
ses de pixels. 

6. Procede selon la revendication 2, caracteris6 en ce que la reduction ou I'agrandissement de I'image se 
fait par changement de resolution de I'image. 

20 7. Proc6d6 selon la revendication 1, caract6ris6 en ce que chaque imagette est de forme carr^e. 

8. Proc6d6 selon la revendication 1 , caract6ris6 en ce que les objets & dStecter sont des visages. 

9. Proc6d6 selon la revendication 1 , caract6ris6 en ce que la phase d'acquisition d'imagettes prevoit egale- 
25 ment I'acquisition de representation de fonds d'images permettant au proc6d6 d'identifier des absences 

d'objets. 

10. Proc6d6 selon la revendication 2, caracterlse en ce qu'il comporte une 6tape supplemental permettant 
d'identifier avec un troisi6me r6seau de neurones les objets ayant ete localises. 

30 

11. Proc6d6 selon la revendication 2, characterise en ce que les imagettes comportent des imagettes d'objets 
et les imagettes de fonds et en ce que I'apprentissage du deuxieme r6seau de neurones ne se fait uni- 
quement qu'avec des imagettes d'objets. 

35 



40 



45 



50 



55 



1NSDOCID: <EP. 0578558A1 J_> 



EP 0 578 558 A1 




Image 



Base d'apprentissage 



Reseau de neurones pour 
la localisation grossiere 

R21 



Formation d 'hypotheses 

Reseau de neurones pour 
la localisation fine 



RZ2 



FIG.1 




Base d'apprentissage 






Comptage 




Identification 



BNSDOCID: <EP _0578558A1 _l_> 




JNSDOCID: <EP 0578558A1J_> 



EP 0 578 558 A1 



omce curop&n raPPORT DE RECHERCHE EUROPEENNE " mam * " ' 

des brevets ■ 

EP 93 40 1747 



DOCUMENTS CONSIDERES COM ME PERTINENTS 



Catego 



Citation du document avec indication, en cas dc ncsoin, 
des parties pertinent es 



Rcvcndicatiofi 



C1ASSEMENT DE LA 
DEMANDS (Int. CL5 ) 



2 
§ 
S 

OS 
O 

O 



FIRST IEE INTERNATIONAL CONFERENCE ON 
ARTIFICIAL NEURAL NETWORKS , 16-18 OCTOBER 
1989; IEE PRESS ; LONDON 
pages 201 - 205 

R.A. HUTCHINSON ET AL. 'comparison of 
neural networks and conventional 
techniques for feature location in facial 
images 1 

page 201, colonne de droite, ligne 45 - 
page 202, colonne de gauche, ligne 55; 
figures 1,4 * 

US-A-4 958 939 (TARID SAMAD) 
abrege * 

* colonne 1, ligne 65 - colonne 2, ligne 
47; figures 1,3,4 * 



1-11 



G06F15/70 
G06K9/32 



DOMAIN KS TECHNIQUES 
RECHERCHES (Int. CI. 5 ) 



G06F 

G06K 



\jc present rapport a etc ctabli pour toutcs les revendtcations 



LA HAYE 



Date O acMtcmi la recherche 

12 0CT0BRE 1993 



CHATEAU J. P. 



CATEGORIE DES DOCUMENTS CITES 

X : particulierement pertinent a lui seul 

Y : particulierement pertioent en combination avec un 

aatre document de la ffltoc catisorie 
A : arriere-plan technotogitue 
O : divulgation non-ecrite 
P : document intercaJaire 



T : tbtorie ou principe a la base dc r invention 
E : document de brevet anterieur, nais publte a la 

date de depot ou apres cette date 
D : dte dans la demande 
1, : cite pour d'autres raisons 

b de la rocme famille, document correspond art 



9 



BNSDOCID: <EP 057B5S6A1 J_> 



THIS PAGE BLANK (uspto> 



